add refashion dag #11

Hazelmat · 2024-03-25T11:00:04Z

No description provided.

kolok

quelques commentaires à discuter !

kolok · 2024-04-02T15:41:06Z

dags/utils/api_utils.py

+            data = response.json()
+            all_data.extend(data['results'])
+            url = data.get('next', None)
+            print(url)


On peut supprimer ce print

kolok · 2024-04-03T16:24:20Z

dags/refashion.py

+
+    df_pds = pd.DataFrame(rows_list)
+    df_pds.index = range(idx_max, idx_max + len(df_pds))
+    df_pds['id'] = df_pds.index


cette solution me parait bancale, si il y a une seule création de propositionservice dans l'interface ce dags a planter

Pas sur qu'on ai besoin de créer de colonne id car c'est un auto incrément.

A tester

kolok · 2024-04-03T16:26:54Z

dags/refashion.py

+
+    df_acteurtype = pd.read_sql_table('qfdmo_acteurtype', engine)
+    df_sources = pd.read_sql_table('qfdmo_source', engine)
+    df_ps = pd.read_sql_table('qfdmo_propositionservice', engine)


read_sql_table semble charger toute la table dans une dataframe
charger toute la table pour trouver l'id max semble un peu overkill ?

kolok · 2024-04-03T16:30:44Z

dags/utils/utils.py

+
+def transform_ecoorganisme(value, df_sources):
+    id_value = df_sources.loc[df_sources['nom'].str.lower() == value.lower(), 'id'].values[0] if any(
+        df_sources['nom'].str.lower() == value.lower()) else None


est-ce qu'on a pas intérêt à lever une exception et/ou ignorer la ligne si l'éco-organisme n'est pas retrouvé dans la liste des sources ?

kolok · 2024-04-04T07:17:54Z

dags/refashion.py

+    sous_categories = {
+        "Vêtement": 107,
+        "Linge": 104,
+        "Chaussure": 109


Note pour plus tard, on pourrait extraire ces mapping dans un fichier de configuration

kolok · 2024-04-04T07:23:09Z

dags/refashion.py

+            else:
+                df[new_col] = df[old_col]
+    df['label_reparacteur'] = False
+    df['identifiant_unique'] = df.apply(lambda x: generate_unique_id(x, selected_columns=selected_columns), axis=1)


Je propose que pour ne pas être dépendant des colonnes qui constitue cet id, on utiise comme identifiant :

SOURCE_IDEXTERNE(_d si c'est du digital)

A voir si ce format est suffisant pour obtenir des ID uniques sur l'ensemble du fichier

kolok · 2024-04-04T07:24:50Z

dags/utils/utils.py

+    return pd.Series([address, postal_code, city])
+
+
+def transform_location(longitude, latitude):


Toutes les fonctions de ransformation pourrait être testé unitairement

kolok · 2024-04-04T07:28:24Z

dags/refashion.py

+    sous_categories = {
+        "Vêtement": 107,
+        "Linge": 104,
+        "Chaussure": 109


Attention aux id écrit en dur, rien ne garanti que les id sont les mêmesentre les environnements.

ici c'est le cas car on copie fréquemment la prod vers la preprod mais il est préférable de se baser sur un "code/nom"

Il y a peut-être une rationnalisation de la DB à faire ici : à discuter ensemble

Hazelmat added 4 commits March 24, 2024 10:39

add refashion dag

5f43963

add columns

c9e73e9

remove unusued columsn

6188eeb

update comment

2f2b526

Hazelmat requested a review from kolok March 25, 2024 11:40

Hazelmat added 2 commits March 27, 2024 13:06

manage adding actors data to dagruns

786c901

put back the run_id

273a28d

kolok reviewed Apr 4, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add refashion dag #11

add refashion dag #11

Hazelmat commented Mar 25, 2024

kolok left a comment

kolok Apr 2, 2024

kolok Apr 3, 2024

kolok Apr 3, 2024

kolok Apr 3, 2024

kolok Apr 4, 2024

kolok Apr 4, 2024

kolok Apr 4, 2024

kolok Apr 4, 2024

		return pd.Series([address, postal_code, city])


		def transform_location(longitude, latitude):

add refashion dag #11

Are you sure you want to change the base?

add refashion dag #11

Conversation

Hazelmat commented Mar 25, 2024

kolok left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment